دیتای اولیه شرکت ایر بی اند بی شامل دیتای افرادی در محله های مختلف نیویورک است که خانه های خود را به افراد بومی نیویورک یا مسافران یا توریست ها یا افرادی ه برای کار به نیویرک میایند و کاری بازه ای انجام میدهند و برای اقامت خانه این افراد را اجاره میکنند ابتدا مقداری تحلیل های معمولی و بیسیک رو بررسی میکنیم سپس بدنبال ارتباط های پنهان م مخفی توی دیتا ها و روابط مختلف اون ها میپردازیم و نتایجی که تونستیم از دیتا ها بگیریم رو نشون میدیم

نوع های مختلف دیتاهایی که توی دیتا سیت داریم به شرح زیر هست و به ترتیب بر اساس هرنوعی که این دیتا ها دارن توی مراحل بعدی و مراحل ویژوال کردن باهاشون برخورد میکنیم

numerical -> id, host_id, latitude, longitude, price, minimum_nights, number_of_reviews,

reviews_per_month, calculated_host_listings_count, availability_365

categorical -> room_type

not_sure -> name, host_name, neighbourhood_group, neighbourhood, last_review

در مرحله اول که شروع به بررسی مقادیر فیچر ها کردیم متوجه چند اسم میزبان نا مشخص شدیم سعی ایده این بود که شاید یک هاست توی یک رکورد اسمش ثبت نشده باشه و بتونیم از سطر های دیگمون این مقادیر رو پر کنیم ولی وقتی چکش کردیم متوجه شدیم که اینطوری نیست و ساختار دیتا بیسشون احتمال زیاد رابطه ای هست و اگر مقداری نال ثبت شده باشه کلا توی هیچ تیبلی نمیشه داشتش و حدس میزنیم که این افراد یا یک شرکت کوچک هستند . در کار اجاره خانه بوده اند قبل از شروع ایر بی اند بی هستند و اسم نداشتن و موقعی که به سیستم اضافه شدن اسمی ثبت نکردن یا شاید از اولین هاست ها بودن و سیستم ولیدیشن دیتا نداشتن اون موقع

نکته دیگه ای ک متوجه شدیم وجود یه حجم خوبی نال توی فیچر تعداد ریویو در ماه و اخرین ریویو شدیم و بدون اینکه از ارتباط این رکورد ها با خبربشیم تصمیم گرفتیم که این فیچر هارو دراپ کنیم البته چون در اینده هم ایده ای روی این ۲ تا فیچر نزدیم سعی نکردیم مقادری رو پیش بینی کنیم و به دراپ کردن فیچر ها بسنده کردیم

we can drop id

we cant fix host_name

Plot longitude and latitude of all hosts

ابتدا داده ها رو براساس موقعیت جغرافیایشون رسم کردیم که تقریبا شبیه نقشه شهر نیورک هم میشه و منطقیه ولی چیزی که از نموار پیداست اینه که تعداد داده هایمون یعنی تعداد میزبان ها در رنگ در آبی و سبز بیشتر عه یعنی در شهر Brooklyn و شهر Queens بیشتر است ولی این لزوما نمیتونه درست باشه شاید در محله دیگه تعداد اون نسبت به این دو محله بیشتر باشن ولی متراکم تر باشن به خاطر به خاط همین در نمودار ۱ متوجه میشمی که آیا حدسمون درست بوده یا نه

اولین ایده ای به بذهن ی فردی که از ایران این دیتاهارو میبینه اینه که ایا جنسیت میزبان روی قیمت یا مینیمم شب رزرو تاثیر داره یا نه :) بخاطر همین تصمیم گرفتیم که از ی مدل استفاده کنیم که از روی اسم میزبان هامون جنسیت اونارو حدس بزنیم وقتی ک فیچر جنسیت رو اضافه کردیم به کارمون چندتا نمودار کشیدیم بنظر ی سری رابطه پیدا کردیم و بعد از اینکه ی ازمون فرض تی تست زدیم و نتیجه گیری کردیم

let's check if gender of owner has any impact of price and number of listing and number of review

so we drop all unknown and andy records

دیتا هامون کورلیشن خاصی با فیچر هامون ندارن ولی چون دیتای جنسیت باینری هست منطقیه که خیلی رابطه ای ب چشم نیاد مخصوصا چون ما رکورد هایی که جنسیتشون مجهول بود رو از دیتامون حذف کردیم ولی نکته ای که وجود داره اینه که وقتی تحلیلای توزیع هارو تست کردیم نتایج خوبی گرفتیم

there is a little information in this male host have more price on 75% of distribution

دیتای اولیه شرکت ایر بی اند بی شامل دیتای افرادی در محله های مختلف نیویورک است که خانه های خود را به افراد بومی نیویورک یا مسافران یا توریست ها یا افرادی ه برای کار به نیویرک میایند و کاری بازه ای انجام میدهند و برای اقامت خانه این افراد را اجاره میکنند ابتدا مقداری تحلیل های معمولی و بیسیک رو بررسی میکنیم سپس بدنبال ارتباط های پنهان م مخفی توی دیتا ها و روابط مختلف اون ها میپردازیم و نتایجی که تونستیم از دیتا ها بگیریم رو نشون میدیم

نوع های مختلف دیتاهایی که توی دیتا سیت داریم به شرح زیر هست و به ترتیب بر اساس هرنوعی که این دیتا ها دارن توی مراحل بعدی و مراحل ویژوال کردن باهاشون برخورد میکنیم

در مرحله اول که شروع به بررسی مقادیر فیچر ها کردیم متوجه چند اسم میزبان نا مشخص شدیم سعی ایده این بود که شاید یک هاست توی یک رکورد اسمش ثبت نشده باشه و بتونیم از سطر های دیگمون این مقادیر رو پر کنیم ولی وقتی چکش کردیم متوجه شدیم که اینطوری نیست و ساختار دیتا بیسشون احتمال زیاد رابطه ای هست و اگر مقداری نال ثبت شده باشه کلا توی هیچ تیبلی نمیشه داشتش و حدس میزنیم که این افراد یا یک شرکت کوچک هستند . در کار اجاره خانه بوده اند قبل از شروع ایر بی اند بی هستند و اسم نداشتن و موقعی که به سیستم اضافه شدن اسمی ثبت نکردن یا شاید از اولین هاست ها بودن و سیستم ولیدیشن دیتا نداشتن اون موقع

نکته دیگه ای ک متوجه شدیم وجود یه حجم خوبی نال توی فیچر تعداد ریویو در ماه و اخرین ریویو شدیم و بدون اینکه از ارتباط این رکورد ها با خبربشیم تصمیم گرفتیم که این فیچر هارو دراپ کنیم البته چون در اینده هم ایده ای روی این ۲ تا فیچر نزدیم سعی نکردیم مقادری رو پیش بینی کنیم و به دراپ کردن فیچر ها بسنده کردیم

اولین ایده ای به بذهن ی فردی که از ایران این دیتاهارو میبینه اینه که ایا جنسیت میزبان روی قیمت یا مینیمم شب رزرو تاثیر داره یا نه :) بخاطر همین تصمیم گرفتیم که از ی مدل استفاده کنیم که از روی اسم میزبان هامون جنسیت اونارو حدس بزنیم وقتی ک فیچر جنسیت رو اضافه کردیم به کارمون چندتا نمودار کشیدیم بنظر ی سری رابطه پیدا کردیم و بعد از اینکه ی ازمون فرض تی تست زدیم و نتیجه گیری کردیم

دیتا هامون کورلیشن خاصی با فیچر هامون ندارن ولی چون دیتای جنسیت باینری هست منطقیه که خیلی رابطه ای ب چشم نیاد مخصوصا چون ما رکورد هایی که جنسیتشون مجهول بود رو از دیتامون حذف کردیم ولی نکته ای که وجود داره اینه که وقتی تحلیلای توزیع هارو تست کردیم نتایج خوبی گرفتیم

قسمت اول رابطه جنسیت و قیمت خونه هارو بررسی کردیم طبق شهود نموداری بنظر یکسان میان ولی طبق نتیجه تی تست یعنی یا سمپلینگ ما اشتباه هست یا هر دو جامعه در میانگین با هم اختلاف دارند و با فرض گرفتن درست بودن سمپلینگ نتیجه میگیریم که مانگین ها اشتباه هستند پس جنسیت زدگی توی نیویورک وجود داره و قیمت یه خونه بخاطر جنسیت دارنده اون زیاد میشه قسمت دوم دنبال این بودیم که نکنه مردم به میزبان های خانوم ریویو بیشتری میدن یا نه؟ با توجه به حرفایی که توی قسمت قبل زدیم نتیجه این شد که بله جنسیت روی تعداد ریویو تاثیر داره ولی جالب تر اینه که اقایون ریویو بیشتری میگیرن مه خانوم ها در قسمت سوم تاثیر جنسیت رو روی ملاک شمارش لیست میزبان بررسی کردیم و مشابه قبل متوجه ارتباط جنسیت شدیم در قسمت سوم بررسی کردیم که ایا مینیمم شب رزرو روی جنسیت تاثیر داشته یا ن و طبق نتیجه تی تست متوجه شدیم که خیر جنسیت روی مینیمم شب رزرو تاثیر نداره

نتیجه کلی کار این شد که حنسیت تقریبا روی همه جوانب کار تاثیر دار ولی اینطوری نیست که مثلا فقط خانوم ها میانگین بالارو داشته باشن و در بعضی از موارد کلا تاثیری نداشت جنسیت پس میشه گفت جنسیت زدگی خیلی توی نیویورک مطرح نیست

برای اینکه نشون بدیم چقدر از جامعه مرد و چقدر زن هستند از این نمودار استفاده کردیم و متوجه شدیم که تعداد خانومایی که خونشونو اجاره میدن بیشتر هستن حالا چرا؟ اگر ما در نظر نگیریم که خطای مدلمون برای حدس جنسیت زیاد بوده و بیخیال دیتاهایی که نتونستیم چک کنیم جنسیتشون چیه و با در نظر گرفتن اینکه مدل مشابه با مدلی که برای بررسی جنسیت وجود داره برای سن افراد هم وجود داره ولی چون وب اپ بود نتونستیم توی نوت بوک نشون بدیم ولی سن افراد از روی اسمشون تقریبا بالای ۳۰ ۴۰ بود با توجه ای این نکته فک کردیم شاید منطقی باشه اینطوری فکر کنیم که خانوم های بازنشسته که منبع درامدیه دیگه ای ندارن سرویسی که ایر بی اند بی در اختیارشون قرار میده که میتونن خونشون رو اجاره بدن با کمترین دردسر و درصد سایت کم میتونن به طور ماهیانه یه درامد داشته باشن و دیگه مجبور نباشن توی سن های بالا کار خاصی انجام بدن و درامدشون امن بشه

let's check realation of name and neighbourhood

نکته باحال بعدی که ما دنبالش بودیم این بود ایا توی نیویورک منطقه ای کهخ هاست توی الون حضور داره رو نوع حرف زدنش توی متن اگهی اون تاثیری میذاره یعنی مثلا هر کدوم از منطقه های نیویرک با ی نوع حرف زدن خاص توی اگهی هاشون حرف بزنن و با لحن خاصی متن بنویسن به زبان دیگه مثلا بافت فرهنگی گفتاری متفاوتی توی ۵ منطقه اصلیه نیویورک با مناطق کوچیک تر اون وجود داره یا ن

بخاطر اینکه ببینیم ایا همچین رابطه ای وجود داره متن اگهی های رو کلاستر کردیم و رند ایندکس لیبل هایکلاستر هارو با اسم مناطق بررسی کردیم

.

برای این کا اول اومدیم یه ورد تو وک روی متن اگهی ها زدیم و اونارو به ۵ کلاستر تبدیل کردیم و همونطور که از نمودار و نتایج کلمات توی هر کلاستر میبینیم متوجه میشیم که خیلی ارتباطی روی متن اگهی ها وجود نداره و دقت رند ایندکس هم بسیار کمتر هست پس کلا نمیتونیم نتیجه بگیریم که حداق توی ۵ منطقه اصلیه نیویورک تفاوت فرهنگی گفتاری ای بین افراد وجود داره

همنین کار هارو برای ۲۲۱ منطقه کوچیک تر نیویورک انجام دادیم وباز هم نتیجه مشابه قبل شد ونتونستیم نتیجه ای بگیریم از متن اگهی ها

نکته باحال تر این هست که یک سری از کلمات توی کلاستر های مختلفمون پر تکرار بودن که همین کمک میکنه که نتیجه بگیریم تفاوت فرهنگی گفتاری خاصی وجود نداره و در یک قالب متن اگهی ها نوشته میشه اگر بخاطر قوانین محدود کننده برای متن اگهی ها نباشه و مردم وقتی به تازگی عضو سایت میشن سعی میکنن مشابه بقیه اگهی های موجود توی سایت متن بزنن پس اینطوری اون نوع اگهی های یوزر های اولیه تعمیم پیدا میکنه به نوع حرف زدن یوزر های جدیدمون توی بازه زمان و باعث یکسانی فرهنگ و نوع گفتار افراد مناطق مختلف در نیویورک اگر وارد بالا نباشن که خیلی محتمل هستن میشه نتیجه گرفت یک فرهنگ قالب گفتاری نوشتاری توی کل مناطق نیویورک برقراره و نتیجه گیری بهتری با این دیتاها نمیشه گرفت

clusters on neighbours is more accurate than neighbour_group but result are not good enough to be consider

let's do some on the book eda

price

همین طور که از نمودار ها میشه فهمید نمودار بالا برای خونه های زیر ۸۰۰ دلار هست و نمودار پایینی برای نمودار های بالای ۸۰۰ دلار و میشه از از توزیع قیمتا نتیجه گرفت که منطقه کویین ارزون تر هست و منهتن گرون ترین منطقه هست ولی نکته باحال اینجاست درسته منهتن توی کل گرون تر هست از بقیه ولی استاتن آیلند خونه های روال و گرون بیشتری داره ولی به طور کلی خیلی منطقه گرونی نیست ولی رویال تره بقیه مناطق رابطه نزدیک به همی دارن

همون نمودار بالارو برای هر محله هم انجام دادیم ولی خب این دیتا بدرد ما نمیخوره چون ما شناختی با مناطق کوچیک نیویورک نداریم که بخوایم ازش مفهوم بکشیم بیرون ولی میتونیم این دیتا رو نگه داریم و اگر خواستیم اپلای کنیم و خونه بخریم ازش استفاده کنیم :))) ولی حالا میتونیم همینطوری تحلیل کلی داشته باشیم ک وقتی منطقه کوچیک میشه نوع بافت اون منطقه یکسان و یکدست تر میشه ینی اگر ما بگیم که یک منطقه فقز نشین هست خیلی فرق داره تا بگیم یک محله فقط نشین هست بخاطر همین اگر من بگم چون میانگین قیمت خونه های اجاره ای توی منهتن مثلا از بقیه بالاتره یا بگم یک محله کوچیک توی استاتن ایلند گرون هست جامعیبت کمتری داره ینی به زبون دیگه اگر نتیجه گیری برای سطح مادی و فرهنگی بخوایم بگیریم اگر در مورد محله ها صحبت کنیم صحبتمون جامعیت بیشتری خواهد داشت پس ینی اگر توی نمودارای بالا بگیم فلام منطقه منطقه فقیر نشینی هست میتونیم نتیجه مون رو جامع بدونیم ایده ای که اینجا داشتیم این بود که بیایم محله های فقیر نشین رو با درصد جرم که توی اون محله اتفاق میافته مقایسه کنیم و اثر فقر روی جرم جنایت رو بررسی کنیم ولی به دو دلیل این کارو نکردیم یک اینکه دیتا رو از کجا بیارریم؟ :))) دو اینکه اکثر محله هایی ک خونه اجاره میدن مناطق توریستی و کاری هستن و بنظرم میاد که اگر خونه ای توی ی منطقه فقیر نشین باشه اگر برای اجاره قرار داده بشه کسی طرفش نمیره و کم کم توی سایت نمایشش کمتر میشه ( ریویو کمتر میگیره و از این حرفا) پس اگر نتیجه ای از روی این دیتا چون اجاره ای هستن قیمتامون بگیریم اشتباه هست و جامعیت کافی رو نداره

مرم توی بروکلین و منهتن تعداد بیشتری خونه هاشونو اجاره میدن ولی اگر با اون نموداری که اول کشیدیم مقایسه کنیم متوجه میشیم منهتنبا توجه ب اینکه مساخت کمتری داره و بیشتر ساختمونای اصلی و بزرگ و هولدینگ های شرکت های بیزینسی و کاری اونجاست ملت تعداد خونه بیشتری برای اقامت نیاز دارن بخاطر همین میشه گفت منهتن پر ترافیک ترین منطقه نیویورک میتونه باشه ولی چون بروکلین مساحت نسبتا بیشتری داره نمیتونیم به طور قطع بگیم رنک شماره و از نظر ترافیک بروکلین هست

room_type

وقتی قیمت رو مورد بررسی قرار دادیم نکته باحالی پیدا کردیم اینکه قیمتا توی بازه زیر ۸۰۰ دلار به طور میانگین توی اجاره کل خونه بالاتر از ۲ نوع دیگه هست ولی وقتی وارد بازه لاکچری و بالا ۸۰۰ دلار میشیم میبینیم که قیمت ی اتاق تنها بالا تر قرار میگیره حالا چرا ؟ تعداد خونه های پنت هوس طور و گرون قیمت نسبتا کمتر هست ولی یه اتاق لاکچری تر تعدادشون بیشتره و بعد از مطالعه میدانی متوجه شدیم بعضی از هتل های کمتر معروف ولی لاکچری طور اتاقاشون روتوی ایر بی اند بی ب فروش میذارن بخاطر همین هست که اتاق های تکی توی قیمت بالا از نظر میانگین بالاتر از اجاره کل خونه لاکچری قرار میگیرن

همونطور که دیده میشه خونه هایی که اتاق اشتراکی هستن اکثرا یک روزه هستن و منطقی هم هست مثلا فرض کنیم یکی فقط یک کار اداری یک روزه داره و فقط ی جا برای وسایلش میخواد تا به کاراش برسه پس میره یه اتاق اشتراکی میگیره که ارزون تر باشه بخاطر همنی توی میانگین پایین تر هستن ولی همون طوری که دیده میشه اقامت های بیشتر کل خونه رو اجاره میکنن و نکته ای که دیده میشه اون بازه ۳۰ روزه هست که ما بهش میگیم اجاره ماهانه این مدل قرارداد که طرف یک ماه تمام خونه رو اجاره کنه برای بیزینس من ها و افرادی هست ک در حال حرکت کار میکنن و مجبورن بازه ای مثلا ۳۰ روزه رو توی نیویورک برای کار یا تفریح باشن واین نمودار نشون میده ک ترجیه اونا بر اینه که کل خونه رو اجاره کن پس اگر مثلا کنارمناطق اداری هستین بهتره کل خونتون رو ۳۰ روزه اجاره بدین

minimum_nights

نکته قشنگ این نمودار این هست ک اجاره ماهانه توی منهتن بیشتره پس نتیجه ای که بالاتر گرفتیم درست میشه

availability_365

در نمودار های فیلد در دست رس بودن در طول سال نوع رویکرد ما اینطوریه که اگر یه منطقه توی میانگین بالاتر باشه ینی که ساختار هتل داری از طریق سایت توی اون جمع بیشتره ینی مثلا توی منطقه استاتن ایلند که بالاترین میانگین رو داره بیشتر خونه ها متعلق به هتل ها هستن یا افرادی که کارشون خرید خونه و اجاره دادن اون هستن هستن و کمتر یکی خونه خودش رو اجاره میده و بیشتر توریستی هستن

از همین نمودار شنگ میشه نتیجه گرفت کدوم مناطق توریستی هستن و توریست بیشتر میره چون ساختار هتلی دارن حالا چرا؟ چون ساختار یک هتل اینطوریه که کل سال در دسترس باشه پس اگر تعداد هتل ها بیشتر باشه میانگین بالاتری بدست میاد ولی چرا هتل ها تکی و از طریق دیگه نرفتن مشتری جذب کنن . ایده اینه ک احتمال زیاد این مناطق مثل ساتاتن ایلند درسته توریستیه ولی احتمالا خیلی بزرگ و پیشرفته و معروف نیست و انتخاب اول توریست ها و مسافرا نیست پس هتل هایی ک توی این منطقه هستن ضعیف تر و محدود ترن بخاطر همین ترجیه دادن برای اینکه هزینه تبلیغات رو کم کنن از طریق این سایت مشتری بگیرن

تمام حرف هایی که بالاتر زدیم رو میشه در مورد محله های کوچیکتر زد و تمام استدلال هایی که در رابطه با قیمت ذکر کردیم بررسی کنیم و تمام اون حرفا اینجا ام صادقه

Make dictionary that contain neighbourhood_group and their neighbourhood

کارهای که در کد های بالا انجام دادیم این بود که اومدیم یک دیکشنری ساختیم از محله ها که در هر محله اسم مناطق مربوط به اون محله رو نگه داری میکنه. بعد اومدم برای اون مناطق هم نمودار جغرافیایی کشیدم که دیدم زیاد به کارمون نمیاد و حذفش کردم ولی این کد ها رو گذاشتم باشه چون بعد در یکیگذاری ۲۵۶ بیت دو جا ازشون استفاده شد

Plot total_review of all neighbourhood_group (1)

Plot count of host in neighbourhood_group (2)

در قسمت ۱ نمودار مربوط به مجموع کامنت ها در هر مرحله رو نشون دادیم و در نمودار ۲ تعداد کل میزبان ها رو در ۵ محله مختلف نشان دادیم همون جوری که نمودار ها نشان میدهند تعداد کل کامنت ها یا ریو ها در محله های Queens, staten island, brox با تعداد میزبان ها در این ۳ محله روند یکسانی دارند ولی برای محله های Manhatan, Brooklyn برعکس است است یعنی تداد کامنت ها در محله Brooklyn بیشتره نسبت به Manhatan ولی در تعداد میزبان ها Manhatan بیشتر از Brooklyn هست

حالا یه نتیجه دیگه هم میشه گرف با کمک نمودار 0 .توی اونجا فک کردیم که محله کویین باید تعداد بیشتری میزبان داشته باشه نسبت به محله منهتن ولی نمودار ۲ داره این رو رد میکنه پش نتیجه ای که میشه گرفت اینه که محله کویین بزرگتر از محله منهتن هستش و میزبان ها در محله کویین پراکنده تر هستند ولی در محله منهتن که کوچک تره ولی تراکم میزبان ها خیلی بیتشر عه و در کلن تعداد میزبان ها در منهتن بیشتر از بقیه محله ها من جمله کویین هستش.

Relation between neighbourhood_group and other fileds

neighbourhood_group with price (3)

plot number (4)

نمودار ۴ همون نمودار ۳ هست فقط چون فرکونسی قیمت ها زیاد است نمودار ها در شکل ۳ به خوبی مشخص نیستند به خاطر همین نمودار شماره ۴ رو با محدود کردن فرکونسی قیمت تا کمتر از ۱۰۰۰ رسم کردیم که نمودار ها بهتر نشان داده شوند همون طور که از شکل مسخش است میانگین قیمت خانه ها در Manhatan بیشتر از بقیه هست و میانگین قیمت ها یکی نیست حالا برای اثبات این ادعا از تست های آماری کمک میگیرم برای این فرض از تست ANOVA استفاده میکنیم

ANOVA TEST for mean of price in neighbourhood_group

because p-value is too small alternative hypothesis is true. it means that price mean in neighbourhood_group are diffrent

خوب این تست هم داره فضیه ما که یکسان نبودن میانگین قیمت محله هاست رو تایید میکنه ... فقط باید حواسمون باشه که این فرض صفر این کتابخونه یکسان بودن میانگین هاست حالا با توجه به این که مقدار p-value خیلی کمتر از مقدار الفا که 0.05 هستش هست پس فرض صفرمون رد میشه یعنی میانگین ها برابر نیستن

Frequency amount of price

plot number (5)

برای این که کارمون با قیمت راحت بشه میخوایم قیمت رو بین بندی کنیم برای این کار ابتدا نمودار فرکونسی قیمت داده ها رو رسم کردیم و بعد میانگین و انحراف و مقدار ماکسیمم و مینیمم قیمت رو به دست اوردیم وبر اساس اون قیمت رو به ۴ دسته تبدیل کردیم

bining price -> [10, 153, 393, 633, 10000]

count of each neighbourhood_group in each price bins

plot number (6)

plot number (7)

توی نمودار ۶ اومدیم تعداد میزبان ها در محله های مختلف با بین های ک در قسمت قبلیش درست کردیم مقایسه کردیم ... همون طور که میبینیم تعداد میزبان های که دربین خیلی ازون هستند برای محله بروکلین تعدادشون بیشتر از همه هست یعنی این محله ازرون ترین خون ها رو داره و در بین های بعدی تعداد خونه های محله منهتن بیشتر که همین طور هم انتظار میرفت ... چون میانگین قیمت خونه ها در منهتن بیشتر بودش همین رو هم میتونیم اینجا ببینیم که تعداد خونه ها در محله منهتن که با قیمت بیشتر در بیشتر از بقیه محله هاست نمودار ۷ هم همون نمودرا ۶ عه فقط جای بین قیمت ها جای محله ها عوض شده

Relationb between minimum_nights and price

frequency amount of minimum_nights (7)

برای این که با این قیچر یعنی مینیم شی اجاره بهتر آشنا بشیم مقدار رکونسی اون و میانگین و بقیه چیاش رو به دست اوردیم

plot count host in each minimum_nights (8)

plot number (9)

اومیدم تعداد خونه هایی که مینیم شبشون به ازای روز های مختلف رو تعدادشون رو پلات کردیم
همون طور که میبینم تعداد خونه هایی که مینیم شب اجارشون یک عه بیشتر همست و بقیه کمتر و سیر نزولی تا عدد ۳۰ که مقدار اون خیل بیتشر از اعداد اطرافش عه اونم به خاطر این ۳۰ شب میشه یه ماه و بعضی خونه ها تمایل زیادی داره که خونشون حداقل یک ماه اجاره بره

توی نمودرا شماره ۹ هم نمودار قیمت خونه ها به ازای حداقل شب های اجاره نشون داده میشه

plot price_bin and minimum_nights (10)

امدیم ببنیم مقدار حداقل شب اجاره با قیمت خونه ها رابطه داره یا نه ... ایتدا نمودار اون رو رسم برای این کار دو تا نمودار کشیدیم که جزیات بهتری بتونیم دریافت کنیم توی نمودار ها وایلون پلات حداقل مینیم شب اجاره به ازای قیمت های مختلف که قبلا بین بندی کرده بودیم هستش

برای این که ببنیم ایا حداقل شب اجاره در قیمت خونه اثر داره یا نه برای تست درستی این فرض از ANOVA استفاده کردیم

ANOVA for mean of minimum_nights in each price_bin

در ابتدا همه دسته بین های قیمت رو در تست شرکت دادیم که فرض صفرمون یعنی برابر بودن میانگین های حداقل شب برای هر دسته قیمت رو رد میکرد اما وقتی همین تست وقتی که با حذف دسته قیمت دوم انجام دادیم فرض صفرمون رد نشد در مجموع این گونه میتونیم نتیجه گیری کنیم که میانگین حداقل شب اجاره در با قیمت بین های اول و سوم و چهارم یعنی قیمت ها در بازه های ۱۰ تا ۱۵۳ و ۳۹۳ تا ۶۳۳ و ۶۳۳ تا ۱۰۰۰۰ یکی است ولی میانگی حداقل شب اجاره در بین دوم یعنی قیمت بین ۱۵۳ تا ۳۹۳ با دیگر دسته ها فرق داره.

اطلاعات زیر هم همین موضوع رو تایید میکنه به صورتی که میانگی حداقل شب در دسته های ۱ و ۳ و ۴ برابر با ۶ است ولی در دسته ۲ برابر ۸ است

count of minimum_nights that are equal 30 for each price_bin

Relationb between minimum_nights and location

مثل دفعه قبل که دنبال ارتباطی بین حداقل شب اجاره و قیمت بودیم این دفعه دنبال ارتباط بین حداقل شب اجاره و لوکیشن هستیم که بینم ایا در محله های مختلف حداقل شب اجاره ها فرق دارند یا نه برای این کار دوبار از تست آنووا کمک میگیریم قبل از این که تست رو اجرا کنیم میانگین حداقل شب اجاره برای محله های مختلف رو پیدا کردیم .... همون طور که مشاهده میشه میانگین حداقل شب اجاره در لوکیشن های مختلف متفاوت عه و جالبیش اینه که منهتن که میانگین قیمتی بالاتری نسبت به همه لوکیشن ها داره در این جا هم میانگین حداقل شب اجاره ش هم از همه بالاتر هست

ANOVA for mean of minimum_nights in each neighbourhood_group

خب همین جوری که میبینیم مقدار پی ولیو از مقدار آلفا کوچک تره پس فرض صفر که برابر بودن میانگین حداقل شب اجاره برای هر محله ای هست رد میشه که طبیعی هم هست طبق نمودار بالا انتظارش رو هم داشتیم

Trim mean

خب حالا سه سوالی که برام پیش اومد این بود که رنج داده های حداقل شب اجاره زیاد عه بین ۱ تا ۱۲۰۰ که این ۱۲۰۰ هم فقط یه دونه هست که اونم از قضا توی منهتن هستش نکنه که همین دیتاهایی مثل که پرت هستند باعت بشه که میانگین حداقل شب اجاره برای لوکیشن های مختلف فرق کنه به خاطر همین اومد از trim mean استفاده کردم که همون طر که توی بالا میبینیم بازم مثل میانگین قبلی میانگین حداقل شب اجاره برای منهتن هنوز هم بیشتر ولی برای بقیه محله ها یکسان شده خواستم برای این trim mean هم تست بزنم ولی نمیدونم که آیا برای تست آنووا هم میشه از trim mean استفاده کرد یا نه

یکی از چیز هایی که به ذهنمون اومد این بود که حداقل شب اجاره با نوع خونه چه ارتباطی میتونه داشته باشه. ابتدا باکس پلات انواع خونه برای حداقل شب اجاره رو رسم کردیم همون طور میبینیم میانگی حداقل شب اجاره برای کل خونه بیشتر از دو تا نوع دیگست که این نتیجه قابل انتظار بود ولی نکته عجیب اینه که حدقل شب اجاره برای نوع خونه های شیر روم بیشتر از پرایوت روم هستش انتظار میرفت برعکس باشه. در این جا از میانگین تریم یا اصلاح شده هم استفاده کردیم که همون طور که میبینیم میانیگی شیر روم و پرایوت رو یکی شدن و همچنان میانگی اینتایر بالاتر است

rebace ://

ما در قسمت های قبل اومده بودیم برای راحتی قیمت بین بندی کردیم ولی این کار هم بر اساس میانگین و واریانس انجام دادیم اما یه روش دیگه توی ذهنومن اومد اونم کلاسترینگ بود بر اساس قیمت داده ها اومدیم ۳ تا کلاستر کلی انتخاب کردیم کلاستر ازرون و کلاستر معمولی و کلاسرت ایده آل که برای کلاستر ارزن هم دو باره با توجه به پراکنش داده ها به ۳ تا کلاستر تبدیل کردیم دو باره آزمایشات بالا رو برای کلاستر های دسته ارزون انجام دادیم

Make three base bin for price (low, average, ideal)

Make DataFrame for each cluster

Frequency of price for cluster_0

Frequency of price for cluster_1

Frequency of price for cluster_2

Make 3 cluster for cluster_0

let's explore id

طبق تجربه ی ک توی ایدی دادن دیتا بیسا توی کارای مختلفمون داشتیم خواستیم ی بررسی بکنیم که ببینیم نکته ای از اون قبیل میتونیم در بیاریم سیستم ایدی دهی دیتا بیسا نکته خاصی نداره فقط ایدی هایی که اول وارد سیستم میشن معمولا ایدی پایین تری دارن ینی از روی ایدی میشه فهمید که اولین کاربرا چ نوع افرادی بودن اولین کاربران اکثرا توی طول جغرافیایی بیشتر بودن ینی طرفای منهتن اول همه گیر شده و با توجه به نکته هایی که در مورد نوع منهتن در اوریم خیلی منطقیه که اول جایی که نیاز سیستم بیشتر بوده کاربرا بیشتر بیان دردسترس بودن در طول سال هم رابطه نسبی داره پس بازم میتونیم بگیم حرفی که زدیم مبنی بر اینکه اول وقتی سیستم اماده ب کار شده رفته با افرادی که توی این کار بودن و توی اجاره دادن خونه بودن قرارداد بسته حالا ۲ تا حالت داره یا سیستم رو وقتی زدن اون افراد که توی این کار بودن رو جذب کردن یا بنیان گذارای این سیستم خودشون توی این کار بودن و میخواستن ی سیستم بسازن که کل بازار کارشونو بگیرن و گسترده ترش کنن بخاطر همین که مشتریای ثابت داشتن این افراد ریویو هایی که میگیرفتن هم بالا تر بوده